Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente

نویسنده

  • Christian M. Strohmaier
چکیده

These T 3 : Automatisierte Anfragen an Suchmaschinen bieten einen geeigne-ten Zugang zu den einschlägigen Web-Dokumenten eines Fachgebiets. These T 4 : Eine feingliedrige Fehlerklassifikation erlaubt die Lokalisierung der beiden Hauptfehlerquellen der webgestützten Nachkorrektur: • falsche Freunde, d. h. Fehler, die unentdeckt bleiben, da sie lexikalisch sind • unglückliche Korrekturen hin zu Orthographie-oder Flexions-Varianten 5 6 These T 5 : Falsche Freunde werden durch eine Kombination mehrerer OCR-Engines deutlich vermindert. These T 6 : Mit einfachen Heuristiken wird ein unglücklicher Variantenaus-tausch der Nachkorrekturkomponente vermieden. These T 7 : Mit einer Vereinheitlichung zu Scores lassen sich diverse OCR-Nachkorrekturhilfen wie etwa Wort-Abstandsmaße, Frequenz-und Kontextin-formationen kombinieren und zur Kandidaten-sowie Grenzbestimmung einset-zen. These T 8 : OCR-Nachkorrektur ist ein multidimensionales Parameteroptimie-rungsproblem, wie z. B. Auswahl der Scores, deren Kombination und Gewich-tung, Grenzbestimmung oder Lexikonauswahl. Eine graphische Oberfläche eig-net sich für eine Untersuchung der Parameter und deren Adjustierung auf Trai-ningsdaten. These T 9 : Die Software zur Parameteroptimierung der Nachkorrektur der Resultate einer OCR-Engine kann für die Kombination mehrerer OCR-Engines wiederverwendet werden, indem die Einzelresultate der Engines wieder zu Scores vereinheitlicht werden. These T 10 : Eine Wort-zu-Wort-Alignierung, wie sie für die Groundtruth-Er-stellung und die Kombination von OCR-Engines notwendig ist, kann durch eine Verallgemeinerung des Levenshtein-Abstands auf Wortebene effizient realisiert werden.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Vorwort: Enterprise Document Management und Information Lifecycle Management

Zu den Herausforderungen der Fachbereiche und IT-Abteilungen moderner Organisationen zählen sowohl das effektive und effiziente Management schwach strukturierter ("weicher") Informationen, insbesondere in Form von Dokumenten, als auch die Auflösung von Medienbrüchen in Geschäftsund Unterstützungsprozessen; beides stellt eine wichtige Voraussetzung für die weitere Steigerung der organisationalen...

متن کامل

Ein hybrides Zeitstempelsystem

Eines der größten Probleme, mit denen digitale Beweisstücke und Dokumente konfrontiert werden, ist das Feststellen der exakten Herstellungszeit. Viele Sicherheitsdienste bauen auf der Fähigkeit auf, die Zeit verschiedener Operationen feststellen zu können. Einfache, verknüpfte und verteilte Schemen sind die heute verbreitetsten Methoden digitale Zeitstempel herzustellen. Sind diese aber dazu ge...

متن کامل

Implementierung und Evaluierung des MIMOR-Modells: Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval

Das MIMOR-Modell (Mehrfachindexierung zur dynamischen MethodenObjekt-Relationierung im Information Retrieval) ist ein Ansatz zur Erhöhung der Adaptivität auf einer Meta-Ebene. MIMOR arbeitet mit Mehrfachindexierung, also der Repräsentation der Objekte (Texte, Bilder usw.) aus mehreren Perspektiven. Große Evaluierungs-Studien haben u.a. gezeigt, dass die besten IR-Verfahren sich in der Qualität ...

متن کامل

Textauszeichnung im Original und in der Übersetzung: Schemasprachen und mehr

Der vorliegende Artikel behandelt Forschungsarbeiten, die in der Forschergruppe TEXTTECHNOLOGISCHE INFORMATIONSMODELLIERUNG, im Rahmen des Projekts SEKIMO (Sekundäre Informationsstrukturierung und vergleichende Diskursanalyse) entstehen. Im Projekt Sekimo werden u. a. Schemasprachen für einen korpusbasierten Vergleich sprachlicher Funktionen (z. B. Koreferenz) und ihren Realisierungsformen in t...

متن کامل

Hypertextualisierung mit Topic Maps - ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten

Der Kurzbeitrag berichtet über ein Projekt ”Hypertextualisierung auf textgrammatischer Grundlage“ (HyTex), in dem erforscht wird, wie sich linear organisierte Dokumente mit semiautomatischen Methoden auf der Grundlage von textgrammatischem Markup und der linguistisch motivierten Modellierung terminologischen Wissens in delinearisierte Hyperdokumente überführen lassen. Ziel ist es, eine Sammlung...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004